Week 1: Introduction to Machine Learning

ผศ.ดร.สิวะโชติ ศรีสุทธิยากร

ภาควิชาวิจัยและจิตวิทยาการศึกษา
คณะครุศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

Part 0: แนะนำรายวิชา

รายวิชา : 2758623 Machine Learning Principles and Application  
หน่วยกิต : 3.0 (2.0-2.0-8.0)
ผู้สอน : ผศ.ดร.สิวะโชติ ศรีสุทธิยากร
ภาควิชาวิจัยและจิตวิทยาการศึกษา คณะครุศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

Course Learning Outcomes

  1. อธิบายหลักการและเทคนิคการเรียนรู้ของเครื่องในการวิเคราะห์ข้อมูลและการสร้างโมเดลทางสถิติเพื่อตอบคำถามทางการศึกษาได้อย่างถูกต้อง

  2. ออกแบบ ดำเนินการวิเคราะห์ และประเมินประสิทธิภาพของโมเดลเพื่อพัฒนาผลงานวิชาการหรือเพื่อแก้ปัญหาจริงทางการศึกษาได้อย่างเหมาะสม รับรู้และจัดการกับประเด็นทางจริยธรรมที่เกี่ยวข้องกับการใช้ข้อมูลและเทคโนโลยี

  3. นำเสนอและอธิบายผลงานวิชาการหรือผลงานที่พัฒนาขึ้นโดยใช้หลักการเรียนรู้ของเครื่องในรูปแบบที่เข้าใจได้ เหมาะสม โดยคำนึงถึงจรรยาบรรณและจริยธรรมที่เกี่ยวข้อง

Course Outline (Part 1)

Week 1:
แนะนำรายวิชา และ Introduction to ML
- แนะนำวัตถุประสงค์รายวิชา โครงสร้าง และการประเมินผล
- ทำความเข้าใจกับเครื่องมือและแพลตฟอร์มที่จะใช้
- ความสำคัญของ ML ในการศึกษา พร้อมกรณีศึกษา

Week 2:
Introduction to Machine Learning and the Modelling Process
- ความหมายและประเภทของ Machine Learning
- บทบาทของ ML ในการวิเคราะห์ข้อมูลทางการศึกษา
- ขั้นตอนการพัฒนาโมเดล ML
- ความสำคัญของการประเมินและปรับปรุงโมเดล

Week 3:
Supervised Learning 1 – Introduction to Key Algorithms
- ภาพรวมของ Supervised Learning
- Classification และ Regression
- ทดลอง Linear Regression, k-NN, Decision Tree

Week 4:
Feature Engineering
- ความหมายและบทบาทของ Feature Engineering
- Encoding, Scaling, Feature Creation, Missing Data Handling
- Feature Selection และ Dimensionality Reduction เบื้องต้น

Week 5-6:
Supervised Learning 2 – Advanced Models & Ensemble Methods
- ทบทวน pipeline การสร้างโมเดลจากข้อมูลจริง
- Logistic Regression, SVM, Regularized Models
- การปรับแต่ง hyperparameters ของโมเดล - Ensemble: Bagging, Boosting, Stacking

Week 7:
Workshop: Applying Supervised Learning in Educational Data Analysis
- ฝึกปฏิบัติการโปรเจ็กต์ ML
- ใช้ use case ทางการศึกษา

Week 8:
Project Progress Presentation: Supervised Learning Applications in Education
- นำเสนอความคืบหน้าโครงงาน
- รับข้อเสนอแนะเพื่อปรับปรุง

Course Outline (Part 2)

Week 9–10:
Model Interpretation – Explainable AI
- ความสำคัญของการตีความโมเดล (Model Interpretation) ในงานวิเคราะห์ข้อมูลด้านการศึกษา
- ความแตกต่างระหว่างการอธิบายโมเดลแบบ Global และ Local
- เทคนิคการตีความผลลัพธ์:
- การวัดความสำคัญของตัวแปร (Feature Importance)
- Permutation Importance
- Partial Dependence Plots (PDP)
- SHAP (SHapley Additive exPlanations) – ทั้งแบบ global และ local
- การใช้เครื่องมือสำหรับ Explainable AI เช่น scikit-learn, DALEX, shap
- ตัวอย่างการตีความโมเดลจากข้อมูลการศึกษา เช่น
- ระบุปัจจัยสำคัญที่ส่งผลต่อความเสี่ยงของนักเรียน
- อธิบายการพยากรณ์คะแนนสอบให้ผู้บริหารโรงเรียนเข้าใจง่าย

Week 11:
Unsupervised Learning 1 – Introduction to Key Algorithms
- Clustering: k-Means, Hierarchical
- Dimensionality Reduction: PCA
- ตัวอย่างการประยุกต์ในงานการศึกษา

Week 12:
Unsupervised Learning 2 – Advanced Methods & Applications
- Clustering ขั้นสูง: DBSCAN, GMM
- Dimensionality Reduction ขั้นสูง: t-SNE, UMAP
- Workshop วิเคราะห์กลุ่มข้อมูลการศึกษา

Week 13–14:
Neural Networks and Deep Learning
- โครงสร้างพื้นฐาน: Neuron, Layer, Activation Function
- Forward/Backpropagation
- ภาพรวม CNN, RNN และเครื่องมือ Keras, PyTorch

Week 15:
นำเสนอโครงงานวิจัย
- นำเสนอโครงงานพร้อมผลการวิเคราะห์
- ทบทวนและสรุปบทเรียน

Week 16: สอบปลายภาค

เกณฑ์การประเมิน (Assessment)

องค์ประกอบ รายละเอียดย่อ สัดส่วน
Assignments แบบฝึกหัดปฏิบัติ/mini-project (รายสัปดาห์ที่กำหนด) 30%
Project โครงงานกลุ่ม: ปัญหาจริง + ข้อมูลจริง + รายงาน/นำเสนอ 30%
สอบวัดความรู้ + ทักษะ กลางภาค + ปลายภาค 40%

หนังสือแนะนำ

แหล่งการเรียนรู้/แหล่งข้อมูลแนะนำ

Part1: Introduction

Pyzer-Knapp et al. (2022)

ภาพรวมปัญญาประดิษฐ์ และ Machine Learning


AI เป็นสาขาวิชาหนึ่งในวิทยาการคอมพิวเตอร์ที่มุ่งเน้นศึกษาและพัฒนาวิธีการ/ทฤษฎีเพื่อสร้างโปรแกรม/เครื่องจักรที่สามารถเลียนแบบความสามารถของสมองมนุษย์

  • การเรียนรู้ (learning)

  • การให้เหตุผล (reasoning)

  • การรับรู้ (perception)

  • การแก้ปัญหา (problem solving)

  • การปรับตัว (adaption)

AI Ecosystem

Stages of AI

AI in the Modern World (1)

“Using two types of neural network - mathematical systems for identifying patterns in images or data - the Al system quickly learnt to identify ten features of eye disease from highly complex optical coherence tomography (OCT) scans. The system was then able to recommend a referral decision based on the most urgent conditions detected.” … “Al was able to make the right referral recommendation more than 94% of the time …”

  • Diabetic Retinopathy

  • Age-related Macular Degeneration

  • Glaucoma

  • Retinal Detachment

  • Optic Neuropathy

https://www.ucl.ac.uk/ioo/news/2018/aug/artificial-intelligence-equal-experts-detecting-eye-diseases (2018)

Al system for breast cancer screening

AI in the Modern World (2)

https://knihovna.utb.cz/en/services/tools/grammarly/

AI in the Modern World (3)

สิวะโชติ และคณะ (2568)

สิวะโชติ และคณะ (2568)

https://www.anthropic.com/engineering/contextual-retrieval

Srisuttiyakorn et al. (2024)

AI in the Modern World (4)

  • วิเคราะห์ร่องรอยความรู้

  • ทำนายแนวโน้มความรู้ในอนาคตจากร่องรอยความรู้ในปัจจุบัน

Park, Lee, and Park (2024)

AI in the Modern World (5)

  • AI chatbot ที่ออกแบบมาเพื่อเป็น “copilot” ด้านสุขภาพจิต

  • ใช้แนวทางของ CBT (Cognitive Behavioral Therapy) หรือ “การบำบัดทางความคิดและพฤติกรรม”

  • ติดตามสุขภาพจิตอย่างต่อเนื่อง

https://woebothealth.com/(2025)

https://www.youper.ai/how-it-works

Part 2: Introduction to ML

Machine Learning (ML) คืออะไร?

สาขาหนึ่งของปัญญาประดิษฐ์ (Artificial Intelligence: AI) ที่มุ่งเน้นการสร้างระบบที่สามารถเรียนรู้และตัดสินใจหรือพยากรณ์จากข้อมูล การเรียนรู้ของระบบดังกล่าวอาศัยการบูรณาการกระบวนการทางคอมพิวเตอร์และทฤษฎีทางคณิตศาสตร์และสถิติเข้าด้วยกัน เพื่อสร้างขั้นตอนวิธี (algorithm) ของการดำเนินงานหรือการตัดสินใจที่อาศัยรูปแบบหรือความสัมพันธ์ในข้อมูลจริง การดำเนินงานดังกล่าวมีจุดเด่นคือมีความยืดหยุ่น รองรับความคลาดเคลื่อนในทางสถิติ ทำให้การดำเนินที่ใช้ขั้นตอนวิธีแบบ ML-based มีความสามารถในการปรับตัวและพัฒนาได้ง่ายกว่า rule-based

Algorithms

อัลกอริทึม (algorithm) หมายถึง กระบวนการหรือชุดของขั้นตอนที่กำหนดไว้อย่างชัดเจน เพื่อแก้ปัญหาหรือดำเนินงานให้บรรลุผลสำเร็จในระยะเวลาที่จำกัด โดยแต่ละขั้นตอนสามารถนำไปปฏิบัติได้จริง

คุณสมบัติของอัลกอริทึมที่ดี

  • มีความชัดเจนแน่นอน

  • มีขั้นตอนการดำเนินงานที่จำกัด

  • มีความถูกต้อง

  • มีประสิทธิภาพ

  • มีความเป็นนัยทั่วไป

  • มีอินพุตและเอาต์พุตที่ชัดเจน

  • เป็นอิสระจากโปรแกรมภาษา (เชิง computer science)

Rule-based algorithm 2

Source: https://www.geeksforgeeks.org/seven-segment-displays/

Rule-based algorithm 3

ML-based 1

จากปัญหาการอ่านตัวเลขจากป้ายไฟ หากข้อมูลนำเข้าเป็นลายมือจริงของคนดังรูป อัลกอริทึมข้างต้นยังสามารถใช้ได้ดีหรือไม่

Source: Geron (2019)

ML-based 2

ผลการประเมินรายงานวิเคราะห์ข้อมูลในรายวิชาสถิติ

ML-based 3

AI-Augmented Data Analysis

AI-Augmented Data Analysis

AI-Augmented Data Analysis: Predictive Assessment

ใช้ผลการเรียนรายวิชาสถิติ + พฤติกรรมการเรียนของนักเรียนเพื่อทำนายความเสี่ยงในการเรียนรายวิชาวิจัย

AI-Augmented Data Analysis: Explainable AI

Types of ML


  • Supervised Learning

  • Unsupervised Learning

  • Reinforcement Learning

Supervised Learning

การเรียนรู้ของเครื่องแบบมีผู้สอน (Supervised Machine Learning) เกี่ยวข้องกับการฝึกโมเดลโดยใช้ชุดข้อมูลที่มีป้ายกำกับ (labeled dataset) ซึ่งแต่ละตัวอย่างประกอบด้วยข้อมูลอินพุตและป้ายกำกับผลลัพธ์ที่สอดคล้องกัน เป้าหมายคือการให้โมเดลเรียนรู้การจับคู่ระหว่างอินพุตและผลลัพธ์ เพื่อให้สามารถทำนายข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนได้อย่างแม่นยำ

  • Regression Task

  • Classification Task

Regression Task

Regression Task เป็นงานหนึ่งใน Machine Learning ที่มีวัตถุประสงค์คือการทำนายค่าต่อเนื่อง (continuous value) โดยอาศัยความสัมพันธ์ระหว่างตัวแปรต้น (independent variables) และตัวแปรตาม (dependent variable) ในชุดข้อมูล

Algorithm พื้นฐาน

  • linear regression with regularization/penalization

  • polynomial regression

  • multivariate adaptive regression spline

  • tree-based models

  • support vector machine

  • neural networks

Classification Task

Classification Task เป็น supervised learning ประเภทหนึ่งที่มีวัตถุประสงค์เพื่อ จำแนกข้อมูล ออกเป็นกลุ่มหรือหมวดหมู่ (categories) ที่กำหนดไว้ล่วงหน้า โดยอาศัยความสัมพันธ์ระหว่างตัวแปรต้น (features) และตัวแปรตาม (target)

  • binary classification

  • multi-class classification

  • multi-label classification

Algorithm พื้นฐาน

  • logistic regression with regularization/penalization

  • multinomial regression with regularization/penalization

  • tree-based models

  • support vector machine

  • neural networks

Unsupervised Learning

คือการเรียนรู้ของเครื่องที่เรียนรู้จากข้อมูลที่ไม่ได้มีป้ายกำกับหรือคำตอบไว้ล่วงหน้า วัตถุประสงค์หลักของการเรียนรู้ประเภทนี้คือการสำรวจหรือค้นหารูปแบบ ความสัมพันธ์ที่อยู่เบื้องหลังข้อมูล

  • Clustering

  • Dimensionality Reduction

  • Identifying patterns/relationships

Clustering

ค้นหา/ระบุกลุ่มที่มีลักษณะร่วมกันตามคุณลักษณะหรือตัวแปรของหน่วยข้อมูล โดยการจัดกลุ่มนี้ช่วยในการแบ่งข้อมูลออกเป็นกลุ่มย่อย ๆ ที่ภายในกลุ่มเดียวกันหน่วยข้อมูลจะมีลักษณะที่คล้ายคลึงกันมากที่สุด และระหว่างกลุ่มหน่วยข้อมูลจะมีความแตกต่างกันมากที่สุด

Dimensionality Reduction 1

  • กระบวนการลดจำนวนมิติ (features หรือ variables) ในชุดข้อมูลมีขนาดใหญ่ ให้เหลือจำนวนตัวแปรที่น้อยลง แต่ยังสามารถคงสาระสำคัญในข้อมูลต้นฉบับเอาไว้ได้อย่างเพียงพอ

    • ทำความเข้าใจโครงสร้างของข้อมูล

    • บรรยาย/แสดงผลลักษณะของหน่วยข้อมูล

    • ตรวจสอบความผิดปกติ (anomaly detection)

    • preprocessing data ประเภทหนึ่งสำหรับการสร้าง regression/classification models

Dimensionality Reduction 2

สภาพฐานะทางเศรษฐกิจ การศึกษา และสุขภาพของประชากรในแต่ละประเทศเป็นอย่างไร

Rows: 167
Columns: 10
$ country    <chr> "Afghanistan", "Albania", "Algeria", "Angola", "Antigua and…
$ child_mort <dbl> 90.2, 16.6, 27.3, 119.0, 10.3, 14.5, 18.1, 4.8, 4.3, 39.2, …
$ exports    <dbl> 10.0, 28.0, 38.4, 62.3, 45.5, 18.9, 20.8, 19.8, 51.3, 54.3,…
$ health     <dbl> 7.58, 6.55, 4.17, 2.85, 6.03, 8.10, 4.40, 8.73, 11.00, 5.88…
$ imports    <dbl> 44.9, 48.6, 31.4, 42.9, 58.9, 16.0, 45.3, 20.9, 47.8, 20.7,…
$ income     <dbl> 1610, 9930, 12900, 5900, 19100, 18700, 6700, 41400, 43200, …
$ inflation  <dbl> 9.440, 4.490, 16.100, 22.400, 1.440, 20.900, 7.770, 1.160, …
$ life_expec <dbl> 56.2, 76.3, 76.5, 60.1, 76.8, 75.8, 73.3, 82.0, 80.5, 69.1,…
$ total_fer  <dbl> 5.82, 1.65, 2.89, 6.16, 2.13, 2.37, 1.69, 1.93, 1.44, 1.92,…
$ gdpp       <dbl> 553, 4090, 4460, 3530, 12200, 10300, 3220, 51900, 46900, 58…

Dimensionality Reduction 3

Dimensionality Reduction 4

Dimensionality Reduction 5

Part 3: Modelling Process

ML Process

Bias and Variance Trade-off

Model = Signal + Noise

  • Bias คือ ความคลาดเคลื่อนแบบมีระบบ (systematic error) เกิดจากการที่โมเดลไม่สามารถจับรูปแบบความสัมพันธ์ได้เพียงพอ กล่่าวคือไม่สามารถจับส่วน signal ได้อย่างเพียงพอ

  • Variance คือ ความแปรปรวนหรือความไม่คงที่ในผลลัพธ์ของโมเดล เกิดขึ้นเมื่อโมเดลเรียนรู้ความสัมพันธ์ในข้อมูลฝึกหัดมากเกินไป จนไปจับส่วนที่เป็น noise มารวมกับ signal ทำให้โมเดลขาดคุณสมบัติความเป็นนัยทั่วไป

Source: https://scott.fortmann-roe.com/docs/BiasVariance.html

Bias and Variance Trade-off

ปัญหา/ความท้าทายในการดำเนิน project เกี่ยวกับ ML

  • Poor- Quality Data

  • Unsufficient Training Data Quantity

  • Nonrepresentative Training Data

  • Irrelevant Features

  • Overfitting and Underfitting Data

กิจกรรม

การสร้างโมเดล Regression เพื่อพยากรณ์คะแนนของนักเรียน

  1. download ไฟล์ข้อมูลจาก student.zip

  2. กิจกรรมนี้ จะให้นักเรียนแบ่งออกเป็น 3 กลุ่ม โดยแต่ละกลุ่มจะพัฒนาโมเดล Regression สำหรับพยากรณ์คะแนน G3 (คะแนนสุดท้าย) โดยใช้ข้อมูลที่แตกต่างกันดังนี้:

  • กลุ่ม A: ใช้ข้อมูลตัวแปรทั้งหมดในชุดข้อมูล ยกเว้น G3 (ผลลัพธ์ที่ต้องพยากรณ์)
  • กลุ่ม B: ใช้ข้อมูลแบบเดียวกับกลุ่ม A แต่ตัด G2 (คะแนนช่วงที่สอง) ออกไป
  • กลุ่ม C: ใช้ข้อมูลแบบเดียวกับกลุ่ม B แต่ตัด G1 (คะแนนช่วงแรก) ออกไป
  1. พิจารณาประสิทธิภาพของโมเดลด้วย RMSE และ R2

ตัวอย่างงานวิจัย

Reference

McKinney, Scott M., Marcin Sieniek, Varun Godbole, et al. 2020. “International Evaluation of an AI System for Breast Cancer Screening.” Nature 577: 89–94. https://doi.org/10.1038/s41586-019-1799-6.
Park, Sonwook, Donghoon Lee, and Hogun Park. 2024. “Enhancing Knowledge Tracing with Concept Map and Response Disentanglement.” https://arxiv.org/abs/2408.12996.
Srisuttiyakorn, Siwachoat, Kanit Sriklaub, Prapasiri Ratchaprapapornkul, and Watinee Amornpaisarnlert. 2024. “Technical Assistance for Mapping Education Data to Thailand Child-Sensitive Climate Change Risk.” Research Report. UNICEF.
UCL Institute of Ophthalmology. 2018. “Artificial Intelligence Equal to Experts in Detecting Eye Diseases.” https://www.ucl.ac.uk/ioo/news/2018/aug/artificial-intelligence-equal-experts-detecting-eye-diseases.
Woebot Health. 2025. “Woebot Health: Scalable Enterprise Solution for Mental Health.” https://woebothealth.com/.